OpenDataLab浦数 人工智能开放数据平台,是
上海人工智能实验室在WAIC 2022科学前沿全体会议上发布“OpenXLab浦源”人工智能开源开放体系的核心项目之一。
7月6日,上海人工智能实验室(上海AI实验室)发布全新升级的“书生通用大模型体系”。在数据环节,通过OpenDataLab开放了包含30多种模态的5,500公开数据集,其中在自然语言方面开放了超过10,000亿token的高质量语料。
上海人工智能实验室(上海AI实验室)于8月14日宣布开源发布“书生·万卷” 1.0多模态预训练语料。据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。